@张博 张茜:《从词频符频探测学术汉语的若干语言特征》
研究范式与目的
- 参照对象: 通用书面语 (以报刊为代表)。
- 研究范式: 语料库驱动 (Corpus-driven),而非语料库验证。
- 核心线索: 以自建“学术论文库”和“报刊库”在词频和符频上的显著差异为切入点。
- 研究目的: 探测学术汉语区别于通用书面语的、独特的语言特征。
研究语料与方法
- 语料库:
- 论文库: 约 1000 万字,涵盖 14 个学科门类的核心期刊论文。
- 报刊库: 约 1000 万字,涵盖《光明日报》等 11 种主流报纸。
- 分析工具: Corpus Word Parser, Corpus Word Frequency, AntConc 等。
- 分析对象: 词语频率 (词频) 和标点符号频率 (符频)。
核心发现
词汇与语体特征 (基于词频)
-
单音节词占比高,语体偏“文”
- 表现:
- 学术汉语平均词长更短。
- 高频词中,单音节词多于报刊语料。
- 偏好使用具有文言/庄典色彩的单音节词,如
购
(vs. 购买),须
(vs. 必须),无
(vs. 没有)。
- 规律: 存在“以单求单”的搭配倾向,即单音节词倾向于和另一个单音节词搭配。
- 结论: 语体风格比通用书面语更正式、典雅。
- 表现:
-
高频词意义/用法特殊
- 现象: 许多在通用语和学术语中都高频的词,其主要意义或用法有显著差异。
- 示例:
较
: 学术语中常用作介词,构成比较结构 (如较之于...
)。区域
: 学术语中可指“物体或图像的一部分”或“变化的范围”,超出了通用语中“地区范围”的意义。响应
: 学术语中常指“系统因刺激而产生的反应”,为物理或生物学概念。
- 意义: 这是学习者理解学术文本的关键难点。
语法特征 (基于词频与符频)
-
定语繁复
- 线索: 结构助词
的
的频率远高于报刊。 - 原因: 为追求精确性和信息密度,名词核心语常带有复杂、多层的修饰成分。
- 特征: 多重定语普遍,且内部关系复杂 (并列、偏正关系叠加)。
- 线索: 结构助词
-
动词时体特征不凸显
- 线索: 体助词
了
、着
、过
的使用频率显著低于报刊。 - 原因:
- 语体: 学术语体以说明和论证为主,叙事性弱。
- 内容: 侧重阐述普遍规律和研究发现,时间性模糊。
- 风格: 追求简洁精炼,省略非概念意义的语法标记。
- 线索: 体助词
-
复句使用频繁且复杂
- 线索: 各类关联词频率普遍更高。
- 特征:
- 类型: 因果和转折类复句尤为常用。
- 结构: 句子内部结构层次多,存在大量多层复句。
- 选词: 倾向于使用更具文言色彩和书面色彩的关联词 (如
由于...因此
,若
,即使
)。
句法与表达特征 (基于符频)
-
句子长,句法复杂
- 线索: 句末标点 (
。
?
!
) 频率低,而句中标点 (特别是,
) 频率高。 - 结论: 学术汉语的句子平均长度更长,内部句法结构更复杂。
- 线索: 句末标点 (
-
疑问句少,但疑问小句和正反问多
- 线索: 问号
?
频率极低。 - 原因: 学术语篇追求客观陈述,避免直接提问和强烈情感。
- 特征:
- 疑问词 (
如何
,怎样
) 常用于陈述句中,构成疑问小句,充当主语或宾语。 - 广泛使用“X 否”形式的正反选择问 (
是否
,能否
,应否
),以体现客观、审慎的探讨姿态。
- 疑问词 (
- 线索: 问号
-
括号功能丰富多样
- 线索: 圆括号
()
的使用频率极高。 - 首要功能: 标示引文出处 (西式学术规范)。
- 其他功能: 补充说明、补充、确指、强调、举例、标示外语原词等。
- 线索: 圆括号
结论
- 方法论: 语料库驱动的对比研究,是发掘学术汉语语言特征的有效路径。
- 研究价值: 系统揭示了学术汉语在词汇、语体、语法及表达层面区别于通用书面语的一系列特征。
- 教学启示: 这些特征是国际学生学术汉语学习的重点和难点,应在教学中予以充分关注。